#refuerzo online

CLPO: Aprendizaje Curricular para Razonamiento de LLMs

CLPO combina aprendizaje curricular y optimización de políticas para mejorar el razonamiento de LLMs. Reestructura problemas y supera a GRPO y DAPO en 10

2026-06-16 · 2 min

Reverse Flow Matching: Marco Unificado para RL Online con Difusión y Flujo

Descubre cómo Reverse Flow Matching unifica métodos de difusión y flujo en RL online, mejorando la eficiencia y estabilidad del entrenamiento con Q-learning.

2026-06-11 · 2 min

Flow-DPPO: Optimización de Política Proximal con Divergencia para Modelos Flow

Flow-DPPO mejora la generación de imágenes y video con RL online y restricción de divergencia, superando al ratio clipping. ¡Descubre cómo!

2026-06-10 · 2 min

Límites de arrepentimiento dependientes de datos y varianza en MDPs tabulares

Algoritmos que logran límites de arrepentimiento adaptativos a datos y varianza en MDPs tabulares online, óptimos en entornos adversariales y estocásticos.

2026-06-03 · 2 min